EvoClass
IA012
Profundización en modelos de lenguaje grandes
Agentes autónomos, RLHF y alineación de seguridad
Objetivos de aprendizaje
- Analizar los componentes arquitectónicos de los agentes GUI, incluyendo módulos de planificación, toma de decisiones y reflexión en sistemas multiagente.
- Explicar los mecanismos del Aprendizaje por Refuerzo (RL) y RLHF, especialmente el papel de los modelos de recompensa y PPO en alinear el comportamiento del agente con los valores humanos.
- Evaluar los riesgos de seguridad y problemas de confiabilidad en agentes autónomos, incluyendo errores fuera de distribución (OOD), ataques de fuga y distracciones ambientales.